import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

# inicializujeme knižnicu Seaborn

sns.set()


tips = sns.load_dataset('tips') # Z repozitára štandardných datasetov načítame dataset Tips


tips.head() # V premennej tips budeme mať načítaný dátový rámec, ktorého hlavičku môžeme vypísať príkazom head()


# Nasledujúcim príkazom vykreslíme graf rozdelenia hodnôt atribútu `total_bill` z dátového rámca tips

g = sns.displot(tips['total_bill'])


# Vykreslíme displot() pre atribút total_bill z dátového rámca tips bez zobrazenia aproximácie, pri diskretizácii použijeme 40 intervalov

g = sns.displot(tips['total_bill'],kde=False,bins=40)


# Vykreslíme aproximáciu hustoty rozdelenia, s dátovými bodmi, bez histogramu

g = sns.displot(tips['total_bill'], kind="kde", rug=True)


for col in ['tip', 'total_bill']:   # v jednoduchom cykle prejdeme cez všetky atribúty, ktoré chceme vykresliť
    sns.kdeplot(tips[col])          # pomocou kdeplot vykreslíme KDE krivku


g = sns.scatterplot(x='tip', y='total_bill',data=tips) # Na osi x vynesieme hodnoty tip, na os y hodnoty total_bill a ako zdrojové dáta použijeme dátový rámec tips


# Vykreslíme scatterplot ako v predošlom príklade, akurát pomocou hue parametra nastaveného na atribút 'smoker' farebne rozlíšime body

g = sns.scatterplot(x='tip', y='total_bill', hue='smoker', data=tips)


g = sns.scatterplot(x='tip', y='total_bill', hue='smoker', size='size', style='sex', data=tips)


# Príklad nižšie zobrazuje zobrazuje kombináciu rovnakých premenných ako predošlé príklady

g = sns.regplot(x='tip',y='total_bill',data=tips)


# Analogicky ako v príklade so scatterplot
# Graf rozlíšime pomocou parametra hue podľa hodnôt atribútu 'smoker'

g = sns.lmplot(x='tip',y='total_bill', hue='smoker', data=tips)


# Uvedený príklad skombinuje vizualizáciu kombinácii hodnôt dvoh atribútov tip a total_bill (ako scatterplot)
# Dopĺňa ich potom o vizualizácie distribúcií hodnôt (ako displot)

g = sns.jointplot(x='tip', y='total_bill',data=tips, kind='scatter')


# YOUR CODE HERE


col = ['tip', 'total_bill', 'size'] # špecifikujeme stĺpce, pre ktoré chceme vykresľovaťmpárový graf
g = sns.pairplot(tips[col])         # zavoláme funkciu pairplot s parametrom


# YOUR CODE HERE


g = sns.countplot(x='smoker', data=tips)


### YOUR CODE HERE


g = sns.barplot(x='sex',y='tip',data=tips) # Tento príkaz vizualizuje priemernú výšku sprepitného pre mužov a ženy


# YOUR CODE HERE


# Kód nižšie vykreslí rozdelenie výšky sprepitného (atribút tip) podľa pohlavia. 

g = sns.boxplot(x="sex", y="tip", data=tips)


# Tento príklade vizualizáciu rozdelí podľa atribútu ``smoker`` pre fajčiarov/nefajčiarov.

g = sns.boxplot(x="day", y="tip", hue="smoker",data=tips)


# YOUR CODE HERE


# YOUR CODE HERE


# Rovnaký príklad z predošlých ukážok - na os x vykreslíme hodnotu atribútu 'day'
# Na y-ovú os hodnoty atribútu 'tip', zdrojový dataset je 'tips'

g = sns.stripplot(x="day", y="tip", data=tips)


# Tento graf vizualizuje výšku sprepitného (tip) mužov a žien podľa jednotlivých dní v týždni (atribút day)
# Hustota vykreslenia bodov (jitter) je nastavená manuálne na 0.3 a nastavená je aj farebná paleta coolwarm

g = sns.stripplot(x="day", y="tip", hue="sex",data=tips, jitter = 0.3, palette = 'coolwarm')


# YOUR CODE HERE


tips['tip_pct'] = 100 * tips['tip'] / tips['total_bill'] #vytvoríme nový stĺpec s hodnotou podielu sprepitného na účte

g = sns.FacetGrid(tips, row="sex", col="time") # vytvoríme mriežku, kde budú riadky podľa hodnoty pohlavia a v stĺpcoch podľa času 
g.map(sns.histogram, "tip_pct")                     # vykreslíme matplotlib histogramy do mriežky


g = sns.catplot(x="day", y="tip", hue="sex", col="smoker", data=tips, kind="bar")


# Vykreslenie heatmapy pre korelačnú tabuľku rámca tips
# tips.corr() funkcia spočíta korelácie všetkých numerických atribútov dátového rámca tips

g = sns.heatmap(tips.corr())


g = sns.heatmap(tips.corr(),cmap='coolwarm',annot=True)


mask = np.zeros_like(tips.corr(), dtype=np.bool) 
mask[np.triu_indices_from(tips.corr())] = True # triu_indices_from() vráti indexy horného trojuholníka zo vstupného poľa, maska sa na nich nastaví na True
g = sns.heatmap(tips.corr(), mask=mask, annot=True, square=True) # vykreslí sa heatmapa s maskou


heatmap_data = pd.pivot_table(tips, values='total_bill', index=['size'], columns='day') # vytvoríme pivot table - hodnoty celkového účtu podľa veľkosti skupinky a dňa
g = sns.heatmap(heatmap_data, annot=True, cmap="YlGnBu",  cbar=False)                   # vykreslíme heatmapu


titanic = sns.load_dataset('titanic')   # načítame dataset Titanic z repozitáru štandardných datasetov
g = sns.heatmap(titanic.isnull(), cbar = False)   # vykreslíme heatmapu pre tie prvky dátového rámca, ktoré sú chýbajúce, bar nevykresľujeme


g = sns.displot(tips['tip'])


with sns.axes_style('darkgrid'):        # aplikujeme pomocou funkcie axes_style štýl
         g = sns.displot(tips['tip'])  # vykreslíme graf


g = sns.displot(tips['tip'])
g = sns.despine()


g = sns.displot(tips['tip'])
g = sns.despine(offset=5, trim=True, left=True, bottom=False)


sns.set_context('talk', font_scale = 1.3)
g = sns.displot(tips['tip'])


with sns.axes_style('whitegrid'):
    g = sns.displot(tips['tip'])
    g.set(xlabel='deň', ylabel='distribúcia')


g = sns.displot(tips['tip'])
g = plt.title('Distribution plot example', fontsize=14, fontweight='bold') # ak chceme, Seaborn vieme kombinovať s matplotlib - tuto napr. použijeme funkciu title() pre vykreslenie hlavičky grafu


sns.set_palette("Dark2")
g = sns.displot(tips['tip'])

Vizualizácie pomocou knižnice Seaborn - cvičenie 1¶

Načítanie datasetu¶

Vizualizácie distribúcie hodnôt - numerické atribúty¶

Vizualizácie závislosti dvoch numerických premenných¶

Bodové grafy (Scatter plots)¶

Regresné grafy (Regression plots)¶

Kombinované vizualizácie - Joint plot¶

Úloha 9.1¶

Kombinované vizualizácie - Párový graf¶

Úloha 9.2¶

Vizualizácia distribúcie rozdelenia hodnôt - kategorické atribúty¶

Úloha 9.3¶

Vizualizácie vzájomnej závislosti 2 premenných rôznych typov¶

Stĺpcový graf¶

Úloha 9.4.¶

Krabicový graf¶

Úloha 9.5¶

Bodové grafy pre kategorické premenné¶

Strip plot¶

Swarm plot¶

Úloha 9.6¶

Kombinované vizualizácie - Facet grids¶

Facet histogramy¶

Vykresľovanie závislosti s treťou kategorickou premennou¶

Heatmapy¶

Nastavenia štýlu a vykresľovania¶

Úloha 9.7¶